curl --request POST \
--url https://apigw.mka1.com/api/v1/llm/chat/completions/stream \
--header 'Authorization: Bearer <token>' \
--header 'Content-Type: application/json' \
--data '
{
"model": "meetkai:functionary-urdu-mini-pak",
"messages": [
{
"role": "user",
"content": "What is the capital of France?"
}
],
"temperature": 0.7,
"max_tokens": 100
}
'{
"event": "message",
"data": {
"id": "chatcmpl-abc123",
"object": "chat.completion.chunk",
"created": 1704067200,
"model": "meetkai:functionary-urdu-mini-pak",
"choices": [
{
"index": 0,
"delta": {
"role": "assistant",
"content": "The capital of France is Paris."
},
"finish_reason": "stop"
}
]
}
}Obsoleto: Use a API de Respostas (/api/v1/llm/responses) em vez disso. Endpoint de conclusão de chat em streaming projetado para uso com o SDK gerado em TypeScript/JavaScript da especificação OpenAPI. Este endpoint utiliza streaming nativo do ORPC através de geradores assíncronos e retorna Eventos Enviados pelo Servidor (SSE) formatados como fragmentos JSON estruturados. Ao contrário do endpoint do cliente OpenAI, este oferece melhor segurança de tipos e integração com o SDK gerado. Use este endpoint ao trabalhar com o cliente de API gerado automaticamente para respostas em streaming com segurança de tipos. O endpoint suporta cache de respostas, retomada de solicitações via cabeçalho x-last-chunk-index e rastreamento automático de uso.
curl --request POST \
--url https://apigw.mka1.com/api/v1/llm/chat/completions/stream \
--header 'Authorization: Bearer <token>' \
--header 'Content-Type: application/json' \
--data '
{
"model": "meetkai:functionary-urdu-mini-pak",
"messages": [
{
"role": "user",
"content": "What is the capital of France?"
}
],
"temperature": 0.7,
"max_tokens": 100
}
'{
"event": "message",
"data": {
"id": "chatcmpl-abc123",
"object": "chat.completion.chunk",
"created": 1704067200,
"model": "meetkai:functionary-urdu-mini-pak",
"choices": [
{
"index": 0,
"delta": {
"role": "assistant",
"content": "The capital of France is Paris."
},
"finish_reason": "stop"
}
]
}
}Documentation Index
Fetch the complete documentation index at: https://docs.mka1.com/llms.txt
Use this file to discover all available pages before exploring further.
Gateway auth: send Authorization: Bearer <mka1-api-key>. For multi-user server-side integrations, you can also send X-On-Behalf-Of: <external-user-id>.
Optional external end-user identifier forwarded by the API gateway.
Parâmetros de solicitação para criar uma conclusão de chat. Baseado na API de Conclusões de Chat da OpenAI.
ID do modelo a ser utilizado. Você pode usar o formato provider:model ou apenas o nome do modelo com um provedor padrão.
1Uma lista de mensagens que compreende a conversa até agora. Pelo menos uma mensagem é necessária.
1Show child attributes
Uma lista de ferramentas que o modelo pode chamar. Use isso para fornecer definições de funções que o modelo pode invocar.
Show child attributes
Controle qual (se houver) ferramenta é chamada pelo modelo. 'nenhuma' significa que o modelo não chamará nenhuma ferramenta. 'automático' significa que o modelo pode escolher. 'obrigatório' força uma chamada de ferramenta.
Se definido, deltas de mensagens parciais serão enviados como eventos enviados pelo servidor. Nota: Este campo é ignorado pelo endpoint de streaming, sendo usado apenas pelos endpoints de cliente compatíveis com a OpenAI.
Quantas opções de conclusão de chat gerar para cada mensagem de entrada. O padrão é 1.
1 <= x <= 9007199254740991O número máximo de tokens que podem ser gerados na conclusão do chat. O comprimento total dos tokens de entrada e dos tokens gerados é limitado pelo comprimento de contexto do modelo.
1 <= x <= 9007199254740991Qual temperatura de amostragem usar, entre 0 e 2. Valores mais altos, como 0,8, tornarão a saída mais aleatória, enquanto valores mais baixos, como 0,2, a tornarão mais focada e determinística.
0 <= x <= 2Uma alternativa à amostragem com temperatura, chamada amostragem de núcleo, onde o modelo considera os resultados dos tokens com a massa de probabilidade top_p. Assim, 0,1 significa que apenas os tokens que constituem os 10% superiores da massa de probabilidade são considerados.
0 <= x <= 1Número entre -2,0 e 2,0. Valores positivos penalizam novos tokens com base em sua frequência existente no texto até agora, diminuindo a probabilidade do modelo repetir a mesma linha verbatim.
Número entre -2,0 e 2,0. Valores positivos penalizam novos tokens com base em sua aparição no texto até agora, aumentando a probabilidade do modelo de falar sobre novos tópicos.
Se especificado, o sistema fará o melhor esforço para amostrar de forma determinística. O determinismo não é garantido, mas a mesma semente deve, tipicamente, retornar resultados semelhantes.
-9007199254740991 <= x <= 9007199254740991Até 4 sequências nas quais a API interromperá a geração de tokens adicionais. O texto retornado não conterá a sequência de parada.
Um objeto que especifica o formato que o modelo deve retornar. Definir como { 'type': 'json_object' } ativa o modo JSON.
Show child attributes
Se deve retornar as probabilidades logarítmicas dos tokens de saída. Se verdadeiro, retorna as probabilidades logarítmicas de cada token de saída retornado no conteúdo da mensagem.
Um inteiro entre 0 e 20 que especifica o número de tokens mais prováveis a retornar em cada posição de token, cada um com uma probabilidade logarítmica associada. logprobs deve ser definido como verdadeiro se este parâmetro for utilizado.
0 <= x <= 20Um identificador único representando seu usuário final, que pode ajudar a monitorar e detectar abusos. Também é utilizado para rastreamento de uso e análise.
Opções para resposta em streaming. Defina isso apenas quando você definir stream: true.
Show child attributes
Se deve habilitar a chamada de funções em paralelo durante o uso da ferramenta.
Restrições de esforço no raciocínio para modelos de raciocínio. Menor esforço resulta em respostas mais rápidas e menos tokens de raciocínio. Valores suportados: 'nenhum', 'mínimo', 'baixo', 'médio', 'alto', 'muito alto' ou nulo.
none, minimal, low, medium, high, xhigh Quando verdadeiro, o gateway analisa a complexidade da solicitação e roteia automaticamente entre variantes quantizadas, MoE e densas da família de modelos solicitada.
Esta página foi útil?